TF-IDF演算法資訊檢索中是相當重要的。TF-IDF演算法主要包含了兩個部分:詞頻(term frequency,TF)跟逆向文件頻率(inverse document frequency,IDF)。
其中,詞頻表示第i個word在第j篇文章出現頻率,一個word在文章中出現頻率越高表示它的重要性越大。以下有幾種表示tf的方式,如下表:
另外,逆向文件頻率是用來處理常用字的問題,假設詞彙i總共在篇文章中出現過,則詞彙i的IDF定義成:
=log
而一個字對於一篇文件重要性的分數就可以透過TF與IDF兩個指標計算,我們將第i個詞彙對於第j篇文件的TF-IDF權重定義為:
TF-=*
今天介紹了經典的文件探勘演算法TF-IDF,明天會介紹向量空間模型(Vector Space Model)也用到TF-IDF演算法喔喜歡我的文章的話也歡迎訂閱~